携手 MLCommons,制定有效且值得信赖的 AI 安全基准
作者 / 技术与社会部 Anoop Sinha 以及 Google Research、Responsible AI 和以人为本技术团队 Marian Croak
标准基准是衡量重要产品质量的公认方法,存在于许多领域。一些标准基准用于衡量安全性: 例如,当汽车制造商宣传 "整体安全评分五星" 时,会引用某项基准。机器学习 (ML) 和 AI 技术领域已经存在标准基准: 例如,MLCommons Association 运用 MLPerf 基准,来衡量如 Google 的 TPU 等尖端 AI 硬件的速度。然而,尽管围绕 AI 安全已经做了大量工作,目前仍然没有类似的 AI 安全标准基准。
MLCommons
https://mlcommons.org/en/
MLPerf
https://mlcommons.org/en/news/mlperf-inference-storage-q323/
AI 安全
https://blog.google/technology/ai/our-responsible-approach-to-building-guardrails-for-generative-ai/
我们很高兴能够为非营利组织 MLCommons Association 开展标准 AI 安全基准制定的工作提供支持。制定有效且值得信赖的基准,不仅要有先进的 AI 安全测试技术,还需要综合广泛的观点。MLCommons 的工作旨在汇集学术界和业界的专家研究人员来制定衡量 AI 系统安全性的标准基准,并以每个人都能理解的分数呈现。我们鼓励社区的所有成员 (从 AI 研究人员到政策专家) 加入我们,为这项工作奉献自己的力量。
加入我们
https://mlcommons.org/ai-safety
为什么要制定 AI 安全基准?
改善健康诊断 https://blog.google/technology/health/how-ai-can-improve-health-for-everyone-everywhere/ 能源使用情况 https://blog.google/outreach-initiatives/sustainability/google-transportation-energy-emissions-reduction/
在计算机硬件领域,基准 (如 SPEC、TPC) 现已展现出惊人的能力,让整个行业能够在追求进步的过程中,保持研究、工程甚至营销部门的步调一致。我们相信,标准 AI 安全基准有助于在这一重要领域实现同样的目标。
SPEC https://en.wikipedia.org/wiki/Standard_Performance_Evaluation_Corporation TPC https://en.wikipedia.org/wiki/Transaction_Processing_Performance_Council
标准 AI 安全基准是什么?
在学术研究和企业工作中,人们开展了一系列 AI 安全测试 (如 RealToxicityPrompts、Stanford HELM 公平性、偏差、毒性测量以及 Google 的生成式 AI 指引)。但是,大多数测试都侧重于为 AI 系统提供提示,并对输出进行算法评分,虽然这是一个有用的开端,但仅限于测试提示的范围。此外,他们通常使用开放数据集进行提示和响应,而这些提示和响应可能已被 (通常是无意中) 纳入训练数据中。
RealToxicityPrompts https://arxiv.org/abs/2009.11462 Stanford HELM https://crfm.stanford.edu/2022/11/17/helm.html Google 的生成式 AI 指引 https://blog.google/technology/ai/our-responsible-approach-to-building-guardrails-for-generative-ai/
共同努力下的 AI 安全基准
负责任的 AI 开发者使用多种安全措施,包括自动测试、手动测试、红队测试 (red teaming,其中人类测试人员试图产生对抗性结果)、软件方面的限制、数据和模型最佳实践以及审计。但是,确定是否已采取足够的预防措施可能具有挑战性,尤其是在开发 AI 系统的公司群体不断发展且具有多元化特点的情况下。标准 AI 基准能够提供强大的工具,帮助供应商和用户衡量 AI 安全性,以及鼓励资源生态系统和专注于提高 AI 安全性的专业提供商,推进社区以负责任的方式发展。
同时,如果没有社区参与,就无法制定成熟、有效且值得信赖的 AI 安全基准。这项工作需要研究人员和工程师齐心协力,为安全测试技术提供创新且实用的改进,使测试更加严格高效。同样,企业也需要团结一致,提供测试数据、工程支持和经济支持。AI 安全的某些方面可能具有主观性,要建立得到广泛共识支持的可信基准需要考虑多方观点,包括公众代言人、政策制定者、学者、工程师、数据工作者、商界领袖和企业家的观点。
Google 对 MLCommons 的支持
Google 以 2018 年宣布的 AI 准则为基础,致力于以安全、可靠和值得信赖的特定标准开发和使用 AI (您可以参阅我们 2019 年、2020 年、2021 年、2022 年的更新)。我们还在关键承诺方面取得了重大进展,这将帮助您大胆且负责任地开发 AI,从而造福所有人。
宣布 https://blog.google/technology/ai/ai-principles/ AI 准则 https://ai.google/responsibility/principles/ 2019 年 https://ai.google/static/documents/ai-principles-2019-progress-update.pdf 2020 年 https://ai.google/static/documents/ai-principles-2020-progress-update.pdf 2021 年 https://ai.google/static/documents/ai-principles-2021-progress-update.pdf 2022 年 https://ai.google/static/documents/ai-principles-2022-progress-update.pdf 进展 https://static.googleusercontent.com/media/publicpolicy.google/en//resources/whcommitments.pdf
Google 正在以多种方式支持 MLCommons Association 在制定 AI 安全基准方面所作的工作。
测试平台: 我们联合其他公司提供资金,支持测试平台的开发。 技术专长和资源: 我们不断提供技术专长和资源,例如 Monk 肤色示例数据集,以帮助确保基准设计优良且有效。 数据集: 我们正在为多语言表征偏差以及针对刻板印象危害 (如 SeeGULL 和 SPICE) 的外部测试提供内部数据集。此外,我们还共享以负责任和包容性的方式收集人工注释为重点的数据集,如 DICES 和 SRP。
Monk 肤色量表示例数据集 https://skintone.google/mste-dataset SPICE https://github.com/google-research-datasets/SPICE/tree/main DICES https://arxiv.org/abs/2306.11247 SRP https://www.kaggle.com/datasets/google/jigsaw-specialized-rater-pools-dataset
未来方向
我们相信,这些基准有助于推进 AI 安全研究,确保以负责任的方式开发和部署 AI 系统。AI 安全属于集体行动问题。前沿模型论坛 (Frontier Model Forum) 和 AI 伙伴关系 (Partnership on AI) 等团体也在重要的标准化举措方面发挥着领导作用。我们很高兴从一开始便与这些团体和 MLCommons 一起开展这项工作,也期待通过更多的共同努力,来促进以负责任的方式开发新的生成式 AI 工具。欢迎您持续关注我们,及时获悉更多资讯。
集体行动问题 https://blog.google/technology/ai/a-shared-agenda-for-responsible-ai-progress/ 前沿模型论坛 https://blog.google/outreach-initiatives/public-policy/google-microsoft-openai-anthropic-frontier-model-forum/ AI 伙伴关系 https://partnershiponai.org/
致谢
推荐阅读
不要忘记 "一键三连" 哦~
分享
点赞
在看